簡單測試使用 WhisperDesktop 將語音轉成文字

TLDR

WARNING

WhisperDesktop 開發者已許久未更新。目前建議改用 Subtitle Edit 整合 Faster-Whisper，維護相對活躍且速度更快。詳細請參考：使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字。

WhisperDesktop 是一個輕量化的離線工具，無需安裝 Python 環境。

whisper desktop github release

模型需從 Huggingface Whisper 下載。模型大小直接影響 VRAM 需求與處理速度：

大小	參數數量	需求 VRAM	相對速度
tiny	39 M	~1 GB	~32x
base	74 M	~1 GB	~16x
small	244 M	~2 GB	~6x
medium	769 M	~5 GB	~2x
large	1550 M	~10 GB	1x

什麼情況下會遇到設定問題：當軟體無法自動偵測硬體時，需手動調整參數。

whisper desktop advanced settings

什麼情況下會遇到效能瓶頸：使用過大的模型（如 large）在特定硬體上可能導致處理失敗或輸出空白。

獨立顯示卡 (RTX 4070 Ti Super)：
- ggml-medium.bin：處理 5 分 16 秒音訊僅需 11 秒。
- ggml-large-v3.bin：處理時間長達 22 分鐘，且存在轉換失敗風險。
內顯 (i7-12700H)：
- ggml-tiny.bin：41 秒。
- ggml-small.bin：4 分 19 秒。
- ggml-medium.bin：13 分 5 秒。

獨立顯卡使用者：建議統一使用 ggml-medium.bin，效能與準確度表現最穩定。
內顯或舊型顯卡使用者：
- 日常轉錄建議使用 ggml-small.bin，此為準確度的最低門檻。
- 若需高精確度內容，可選用 ggml-medium.bin 並預留較長的處理時間。